Biểu diễn chi tiết trò chơi Trò_chơi_Bayes

Đối với những trò chơi KHÔNG-PHẢI ‘’trò chơi Bayes’‘ với thông tin hoàn hảo, ‘’biểu diễn trò chơi theo dạng thông thường’‘ tức là nêu ra chi tiết các ‘’khoảng chiến lược’‘ và ‘’phương trình thu hoạch’‘ của tất cả người chơi. Một „chiến lược’‘ của người chơi là một kế hoạch hành động đầy đủ, tính đến tất cả các trường hợp có thể xảy ra trong trò chơi, ngay cả khi trường hợp đó có thể không bao giờ xảy ra. ‘’Khoảng chiến lược’‘ của người chơi là tập hợp tất cả các chiến lược mà người chơi có thể sử dụng. ‘’Phương trình thu hoạch’‘ là phương trình bao gồm các hồ sơ chiến lược và các khoản thu hoạch (thường là một loạt số thực), trong đó hồ sơ chiến lược là một véc tơ chỉ ra chiến lược cho tất cả người chơi.

Đối với ‘’trò chơi Bayes’‘, cần chỉ ra khoảng chiến lược, các kiểu người chơi, phương trình thu hoạch và niềm tin cho mỗi người chơi. Một ‘’chiến lược’‘ của người chơi là một kế hoạch hành động đầy đủ, tính đến tất cả các trường hợp có thể xảy ra‚ đối với mỗi kiểu người chơi. Một chiến lược phải chỉ ra hành vi của người chơi không chỉ trong trường hợp kiểu người chơi đã được ấn định, mà còn chỉ ra cả những hành động sẽ được thực hiện trong các trường hợp người chơi rơi vào kiểu khác. Khoảng chiến lược vẫn được định nghĩa như trên. Các kiểu người chơi đơn giản là tập hợp tất cả các kiểu có thể xảy ra với mỗi người chơi. Niềm tin của người chơi miêu tả mức độ người chơi không chắc chắn về kiểu người chơi của đối phương. Mỗi niềm tin của người chơi là xác suất đối phương thuộc về một kiểu nhất định, ấn định trước kiểu người chơi của người đang mang niềm tin đó. (ví dụ, niềm tin là xác suất xảy ra các kiểu người chơi của đối thủ, ấn định trước kiểu người chơi của người đó: P (kiểu người chơi của đối phương | kiểu người chơi của người chơi đó). Phương trình thu hoạch là phương trình gồm 2 phần, bao gồm ‘’hồ sơ chiến lược’‘ và ‘’kiểu người chơi’‘. Nếu người chơi có phương trình thu hoạch U ( x , y ) {\displaystyle U(x,y)} và thuộc kiểu người chơi t, những gì người đó thu hoạch được sẽ là U ( x ∗ , t ) {\displaystyle U(x^{*},t)} , trong đó x ∗ {\displaystyle x^{*}} là hồ sơ chiến lược được thực hiện trong trò chơi (ví dụ, véc tơ liệt kê các chiến lược đã được thực hiện)Một trong các định nghĩa chính thức được biểu diễn như sau:

Trò chơi được định nghĩa là: G = ⟨ N , Ω , ⟨ A i , u i , T i , τ i , p i , C i ⟩ i ∈ N ⟩ {\displaystyle G=\langle N,\Omega ,\langle A_{i},u_{i},T_{i},\tau _{i},p_{i},C_{i}\rangle _{i\in N}\rangle } , trong đó

  1. N {\displaystyle N} là tập hợp người chơi.
  2. Ω {\displaystyle \Omega } là tập hợp các trạng thái tự nhiên. Ví dụ, trong trò chơi bài tây, trạng thái tự nhiên có thể là bất kì quân bài nào
  3. A i {\displaystyle A_{i}} là tập hợp các hành động của người chơi i {\displaystyle i} . Ta coi: A = A 1 × A 2 × ⋯ × A N {\displaystyle A=A_{1}\times A_{2}\times \dotsb \times A_{N}} .
  4. T i {\displaystyle T_{i}} là kiểu người chơi của người chơi i {\displaystyle i} , được định nghĩa theo phương trình τ i : Ω → T i {\displaystyle \tau _{i}\colon \Omega \rightarrow T_{i}} . Do đó, đối với mỗi trạng thái tự nhiên, trò chơi sẽ có các kiểu người chơi khác nhau. Khoản thu hoạch của người chơi sẽ quyết định kiểu người chơi. Những người chơi thu hoạch cùng một lượng bằng nhau sẽ thuộc về cùng một kiểu người chơi.
  5. C i ⊆ A i × T i {\displaystyle C_{i}\subseteq A_{i}\times T_{i}} định nghĩa các hành động có thể được thực hiện bởi người chơi i {\displaystyle i} thuộc kiểu T i {\displaystyle T_{i}} .
  6. u i : Ω × A → R {\displaystyle u_{i}\colon \Omega \times A\rightarrow R} là phương trình thu hoạch của người chơi i {\displaystyle i} .. Nếu diễn đạt một cách chính thống hơn, ta coi L = { ( ω , a 1 , … , a N ) ∣ ω ∈ Ω , ∀ i , ( a i , τ i ( ω ) ) ∈ C i } {\displaystyle L=\{(\omega ,a_{1},\dotsc ,a_{N})\mid \omega \in \Omega ,\forall i,(a_{i},\tau _{i}(\omega ))\in C_{i}\}} , và u i : L → R {\displaystyle u_{i}\colon L\rightarrow R} .
  7. p i {\displaystyle p_{i}} là phân bố xác suất của các trạng thái tự nhiên Ω {\displaystyle \Omega } cho mỗi người chơi i {\displaystyle i} , tức là, mỗi người chơi có các quan điểm khác nhau về phân bố xác suất của các trạng thái tự nhiên. Trong trò chơi, họ không bao giờ biết được chính xác trạng thái tự nhiên thật sự

Chiến lược thuần túy (pure strategy) s i : T i → A i {\displaystyle s_{i}\colon T_{i}\rightarrow A_{i}} cần thỏa mãn ( s i ( t i ) , t i ) ∈ C i {\displaystyle (s_{i}(t_{i}),t_{i})\in C_{i}} với mọi kiểu người chơi t i {\displaystyle t_{i}} . Do đó, chiến lược của mỗi người chơi chỉ phụ thuộc vào kiểu người chơi của bản thân người đó, vì người đó có thể không biết gì về kiểu người chơi của đối phương. Và thu hoạch kì vọng (expected payoff) của người chơi i {\displaystyle i} đối với hồ sơ chiến lược đó được biểu diễn bằng u i ( S ) = E ω ∼ p i [ u i ( ω , s 1 ( τ 1 ( ω ) ) , … , s N ( τ N ( ω ) ) ) ] {\displaystyle u_{i}(S)=E_{\omega \sim p_{i}}[u_{i}(\omega ,s_{1}(\tau _{1}(\omega )),\dotsc ,s_{N}(\tau _{N}(\omega )))]} .

Gọi S i {\displaystyle S_{i}} là tập hợp các chiến lược thuần túy, ta có, S i = { s i : T i → A i ∣ ( s i ( t i ) , t i ) ∈ C i , ∀ t i } . {\displaystyle S_{i}=\{s_{i}\colon T_{i}\rightarrow A_{i}\mid (s_{i}(t_{i}),t_{i})\in C_{i},\forall t_{i}\}.}

Cân bằng Bayes của trò chơi G {\displaystyle G} được định nghĩa là cân bằng Nash (có thể là cân bằng chiến lược thuần túy hoặc hỗn hợp) của trò chơi G ^ = ⟨ N , A ^ = S 1 × S 2 × ⋯ × S N , u ^ = u ⟩ {\displaystyle {\hat {G}}=\langle N,{\hat {A}}=S_{1}\times S_{2}\times \dotsb \times S_{N},{\hat {u}}=u\rangle } . Do đó, đối với mỗi trò chơi hữu hạn G {\displaystyle G} , luôn tồn tại cân bằng Bayes.